特征选择的三种方法、基本概念

最新推荐文章于 2024-05-31 15:12:14 发布

Happy祥子

最新推荐文章于 2024-05-31 15:12:14 发布

阅读量5.9k

点赞数

分类专栏：特征选择文章标签：机器学习

本文链接：https://blog.csdn.net/woaixuexihhh/article/details/110001916

版权

一、相关概念在特征选择中涉及到两个过程，一个是子集搜索，一个是子集评价。已知的特征空间的维度，需要去遍历多有可能的子集显然不现实。所以一个可行的做法是，先产生一个候选的子集，然后对该子集进行评价，之后根据这个评价继续搜索特征。子集搜索：（1）向前搜索：每次从待选的特征集A当中当中选定一个特征aka_kak加入已选的特征集S,使得特征集S∪akS\cup a_kS∪ak最优，并且大于原来的已选的特征集S.(2)向后搜索：每次从特征空间中删除一个冗余特征。（3）双向搜索：每次选择一个最优的特征（这

摘要由CSDN通过智能技术生成

一、相关概念

在特征选择中涉及到两个过程，一个是子集搜索，一个是子集评价。已知的特征空间的维度，需要去遍历多有可能的子集显然不现实。所以一个可行的做法是，先产生一个候选的子集，然后对该子集进行评价，之后根据这个评价继续搜索特征。

子集搜索：（1）向前搜索：每次从待选的特征集A当中当中选定一个特征 $a_k$ 加入已选的特征集S,使得特征集 $S\cup a_k$ 最优，并且大于原来的已选的特征集S.(2)向后搜索：每次从特征空间中删除一个冗余特征。（3）双向搜索：每次选择一个最优的特征（这些特征在后续将不会被删除），去除一个冗余的特征。
子集评价：评价选择的特征子集的优劣方法。

二、特征选择的三种类别

过滤式
过滤式方法指的是先对特征集进行筛选，然后再进行学习器的训练，特征选择过程对后续的学习器无关。相当于先用特征选择的过程对初始的特征进行过滤，再用过滤后的特征进行模型的训练。
典型代表有：Relief算法。该算法的思想如下：为每个特征设置一个统计量，所有特征的统计量构成一个向量。统计量代表的是特征的重要程度，最终只要选择对应分量的值大于阈值 $\tau$ 或者前k个特征就行了。统计量构建的方法如下：在 $x_i$ 的同类样本中选择最近邻 $x_{i,nh}$

最低0.47元/天解锁文章

Happy祥子

关注

0
点赞
踩
14

收藏

觉得还不错? 一键收藏
1
评论
特征选择的三种方法、基本概念

一、相关概念在特征选择中涉及到两个过程，一个是子集搜索，一个是子集评价。已知的特征空间的维度，需要去遍历多有可能的子集显然不现实。所以一个可行的做法是，先产生一个候选的子集，然后对该子集进行评价，之后根据这个评价继续搜索特征。子集搜索：（1）向前搜索：每次从待选的特征集A当中当中选定一个特征aka_kak加入已选的特征集S,使得特征集S∪akS\cup a_kS∪ak最优，并且大于原来的已选的特征集S.(2)向后搜索：每次从特征空间中删除一个冗余特征。（3）双向搜索：每次选择一个最优的特征（这
复制链接

扫一扫

专栏目录